本地网络媒体词频统计(一)

2015-06-29

对本地网络媒体的信息量感兴趣，于是针对以下三个板块的标题进行采集分析：

苍南在线

苍南网

龙港网

标题采集

为了快速编码，采集部分使用了 Scrapy 框架，以下代码实现了自动遍历 目标板块 所有页面，并将页面保存至本地：

def parse(self, response):
	url = response.url.split('/')
        filename = url[-1]
        with open(basePath+filename,'wb') as f:
	    f.write(response.body)
        records = response.xpath('//a[re:test(@class, "nxt")]')
	if( len(records) > 0 ):
            nxturl = records[0].xpath('@href').extract()[0]	   
            yield Request(nxturl, callback=self.parse)

出于个人的习惯，Scrapy 仅作为下载器使用。

内容解析

下载所有页面后，对所有页面进行解析，如果倾向于边采集边解析，可以在 标题采集 中完成内容解析。以下使用了 BeautifulSoup 获取本地所有页面的标题集，并将其保存至文件中：

f = open(path,'w')
for filename in os.listdir(filesPath):
    soup = BeautifulSoup(open(filesPath+filename))
    tatet  = soup.find_all(id= re.compile("normalthread_\d+"))
    for item in tatet:
        title =  item.find("a",class_="s xst").text
        print title
        f.writelines(title+'\n')

标题贡献量：

苍南在线：1099

苍南网：7108

龙港网：36694

词频统计

起初没有打算使用 python 进行词频统计，因此 内容解析 和 词频统计 的代码没有合并在一起。在得知标题数量并不多的情况下，决定使用 jieba 对标题进行分词操作，分出来的 词 作为字典的 key ， 词 的出现次数作为字典的 vlaue 。实现代码如下:

import jieba
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
c = {}
def getWords(f):
  global d
  global c
  for line in f:
      seg_list = jieba.cut(line)
      for item in seg_list:
	  if c.get(item) == None:
	      c[item] = 1
	  else:
   	      c[item] = c[item] + 1
   	      
f = open(path)
getWords(f)
new = sorted(c.iteritems(), key=lambda d:d[1], reverse = True )
for k,v in new:
	result = "%s:%d" % (k,v)
	print result

输出如下:

龙港:10902
的:10889
，:8585
！:5528
苍南:5426
“:5199
”:5148
？:5034
了:4351
-:2919
：:2759
在:2347
。:2316
被:2280
温州:2089
是:2059
有:1889
一:1756
人:1596
）:1589
（:1536
—:1511
你:1465
...

停止词出现的频率太高，于是加入停止词字典进行过滤，同时计算百分比，效果如下:

龙港:10902 24.280083%
苍南:5426 12.084363%
男子:984 2.191488%
建设:945 2.104630%
灵溪:839 1.868555%
发展:814 1.812877%
政府:701 1.561212%
大道:682 1.518897%
后:670 1.492172%
城市:632 1.407541%
发生:615 1.369680%
浙江:571 1.271687%
平阳:566 1.260551%
...
台风:240 0.534509%
...
垃圾:219 0.487740%
...
火灾:207 0.461014%
...
停水:110 0.244983%
...

如需再进一步过滤可以自定义停止词字典，加入 龙港 、 苍南 、 灵溪 等本地化词汇，以方便分析数据。